AI 读心术来了,准确率高达 82%?论文已刊登在 Nature!
AI 的潜力有多大?现如今,读心术就要来了:人类无须张口,你的所想,AI 都知道。更为重要的是,这是 AI 首次通过非侵入式的方法学会了“读心术”。
这项研究成果来自于美国得克萨斯州奥斯汀分校的团队,目前已经刊登在《Nature Neuroscience》杂志上。他们基于 GPT-1 人工智能技术开发出一种解码器,可将大脑活动转化为连续的文本流,它有可能为无法说话的患者提供另一种与外界沟通的新型方式。
根据实验结果显示,GPT 人工智能大模型感知语音的准确率可高达 82%,令人惊叹。
“读心术”的探索
事实上,科技圈对“读心术”的探索并非近日才展开。
过去,马斯克建立的神经科技公司 Neuralink 也一直在寻找高效实现脑机接口的方法,其还与加州大学戴维斯分校合作,实现用猴子大脑控制电脑的实验,旨在最终想要将芯片植入大脑,用“细丝”探测神经元活动。
不过,值得注意的是,Neuralink 的这种方案属于侵入式的。所谓侵入式,是指将脑机接口直接植入到大脑的灰质,因而所获取的神经信号的质量比较高。这种方式的缺点是容易引发免疫反应和愈伤组织(疤),进而导致信号质量的衰退甚至消失。
与之相对应的是非侵入式脑机接口,它是一种能够在人脑与外部设备之间直接建立通讯的人机交互技术,具有操作便捷、风险性小等优点。
以往,行业内可以通过功能性磁共振成像(FMRI)捕捉人类大脑活动的粗糙、彩色快照。虽然这种特殊类型的磁共振成像已经改变了认知神经科学,但是它始终不是一台读心机:神经科学家无法通过大脑扫描来判断某人在扫描仪中看到、听到或思考的内容。
此后,神经科学家一直希望可以使用 fMRI 等非侵入性技术来破译人类大脑内部的声音,而无需手术。
如今,随着《Semantic reconstruction of continuous language from non-invasive brain recordings》(https://www.nature.com/articles/s41593-023-01304-9.epdf)论文的发布,该论文的主要作者 Jerry Tang 通过将 fMRI 检测神经活动的能力与人工智能语言模型的预测能力相结合,可以以惊人的准确度重现人们在扫描仪中听到或想象的故事。解码器甚至可以猜出某人在扫描仪中观看短片背后的故事,尽管准确性较低,但也实现了一大进步。这也意味着,参与者不需要植入任何外界设备,AI 系统就能解码大脑中的想法。
没说过的话,AI 是怎么知道的?
自 ChatGPT、GPT-4 发布的几个月间,我们见证了大模型根据提示词不断输出内容的过程。
要问 AI 系统如何了解人类大脑中的想法,在论文中,研究人员透露,首先让参与者听新故事,然后功能性磁共振成像(FMRI)可以呈现出参与者大脑的活动状态。进而,基于最新开发的语义解码器将这些状态,生成相应的单词序列,并通过将用户大脑反应的预测与实际记录的大脑反应进行比较,最终预测每个候选单词序列与实际单词序列的相似程度,看看准确率如何,是否能“读心”。
具体来看,为了收集大脑活动数据,研究人员让研究对象在 fMRI 扫描仪内听一些音频故事。与此同时,通过 fMRI 扫描仪观察他们的大脑在听这些话时反应情况。如图 a 所示,3 名受试者在听 16 小时的叙述性的故事时,AI 系统记录了 MRI(磁共振成像)的反应。
接下来,研究人员在这个数据集上训练编码模型。在初始训练时,如 b 图所示,当受试者在试听此前没有用于模型训练的测试故事时,大脑会做出不同的反应。
进而,语义解码器可以根据参与者的大脑活动生成词汇序列,语言模型(LM)为每个序列提出连续性,而编码模型对每个连续性下记录的大脑反应的可能性进行评分。
简单来看,语义解码器学会了将特定的大脑活动与特定的单词流相匹配。然后根据匹配出来的单词流,试图重新输出这些故事。
不过,语义解码器主要捕捉了参与者想法中的要点,并不是一字一句的完整思想内容。如参与者听到的是,“我从气垫上站起来,把脸贴在卧室窗户的玻璃上,希望看到有一双眼睛盯着我,但却发现只有一片黑暗。”
但是想法却是,“我继续走到窗前,打开窗户,我什么也没看见,再抬头看,什么也没看见。”
又比如说参与者听到的是,“我还没有驾照”,语义解码器解码之后的版本可能是,“她还没有学会开车”。
语义解码器捕捉参与者的想法
通过这种方法,在一系列语言相似性指标下,语义解码器对测试故事的预测与实际刺激词的相似度明显高于预期。准确率也高达 82%。
该论文的另一位作者 Alexander Huth 表示,他们对系统出色的表现感到惊讶。他们发现解码后的单词序列通常能够准确地捕捉到单词和短语。他们还发现他们可以从大脑的不同区域分别提取连续的语言信息。
除此之外,为了测试解码的文本是否准确捕捉到故事的含义,研究人员还进行了一项行为实验,通过向只阅读解码后单词的受试者提问一系列问题。受试者在没有看过视频的情况下,能够正确回答超过一半的问题。
语义解码器刚起步,道阻且长
不过,当前,该语义解码器还无法在实验室以外的地方使用,因为它依赖于 fMRI设备。
对于未来的工作, 研究人员希望自然语言神经网络的快速进展能够带来更好的准确性。到目前为止,他们发现较大、现代的语言模型至少在编码部分工作得更好。他们还希望能够使用更大的数据集,比如每个受试者 100 或 200 小时的数据。
虽然这种非侵入性的方式,可能会对医学维度的研究以及患者有极大的好处,使其可以与他人进行可理解的交流,但是也存在隐私、伦理审查、不平等和歧视、滥用和侵犯人权等诸多问题,所以想要现实中应用也大有难度。
与此同时,研究人员表明,语义解码器仅在接受过训练的人身上以及与其合作下才能正常工作,因为针对一个人训练的模型不适用于另一个人,当前还无法做到通用。
“虽然这项技术还处于起步阶段,但重要的是要规范它能做什么,不能做什么,”该论文的主要作者 Jerry Tang 警告说。“如果它最终可以在未经个人许可的情况下使用,就必须有(严格的)监管程序,因为如果滥用预测框架可能会产生负面后果。”
该小组已在 GitHub 上提供了其自定义解码代码: github.com/HuthLab/semantic-decoding 。据悉该团队也在得克萨斯大学系统的支持下提交了与这项研究直接相关的专利申请。
更多内容可查看完整的论文内容:
https://www.nature.com/articles/s41593-023-01304-9
参考:
https://spectrum.ieee.org/mind-reading-ai
https://www.auntminnie.com/index.aspx?sec=ser&sub=def&pag=dis&ItemID=140000
推荐阅读:
▶百度也要造手机了,小度科技确认发布AI智能手机;iPhone 16 Pro将采用固态按键;Wasmer 3.3发布|极客头条
▶对话凯文·凯利:AI 会取代人的 90% 技能,并放大剩余的 10%
▶Orillusion引擎正式开源!AIGC时代下的WebGPU轻量级3D渲染引擎!